Transformers have become central to recent advances in computer vision. However, training a vision Transformer (ViT) model from scratch can be resource intensive and time consuming. In this paper, we aim to explore approaches to reduce the training costs of ViT models. We introduce some algorithmic improvements to enable training a ViT model from scratch with limited hardware (1 GPU) and time (24 hours) resources. First, we propose an efficient approach to add locality to the ViT architecture. Second, we develop a new image size curriculum learning strategy, which allows to reduce the number of patches extracted from each image at the beginning of the training. Finally, we propose a new variant of the popular ImageNet1k benchmark by adding hardware and time constraints. We evaluate our contributions on this benchmark, and show they can significantly improve performances given the proposed training budget. We will share the code in https://github.com/BorealisAI/efficient-vit-training.
translated by 谷歌翻译
图形信号处理(GSP)中的基本前提是,将目标信号的成对(反)相关性作为边缘权重以用于图形过滤。但是,现有的快速图抽样方案仅针对描述正相关的正图设计和测试。在本文中,我们表明,对于具有强固有抗相关的数据集,合适的图既包含正边缘和负边缘。作为响应,我们提出了一种以平衡签名图的概念为中心的线性时间签名的图形采样方法。具体而言,给定的经验协方差数据矩阵$ \ bar {\ bf {c}} $,我们首先学习一个稀疏的逆矩阵(Graph laplacian)$ \ MATHCAL {l} $对应于签名图$ \ Mathcal $ \ Mathcal {G} $ 。我们为平衡签名的图形$ \ Mathcal {g} _b $ - 近似$ \ Mathcal {g} $通过Edge Exge Exgement Exgmentation -As Graph频率组件定义Laplacian $ \ Mathcal {L} _b $的特征向量。接下来,我们选择样品以将低通滤波器重建误差分为两个步骤最小化。我们首先将Laplacian $ \ Mathcal {L} _b $的所有Gershgorin圆盘左端对齐,最小的EigenValue $ \ lambda _ {\ min}(\ Mathcal {l} _b)$通过相似性转换$ \ MATHCAL $ \ MATHCAL} s \ Mathcal {l} _b \ s^{ - 1} $,利用最新的线性代数定理,称为gershgorin disc perfect perfect对齐(GDPA)。然后,我们使用以前的快速gershgorin盘式对齐采样(GDAS)方案对$ \ Mathcal {L} _p $进行采样。实验结果表明,我们签名的图形采样方法在各种数据集上明显优于现有的快速采样方案。
translated by 谷歌翻译
在县粒度上预测每年农作物的产量对于国家粮食生产和价格稳定至关重要。在本文中,为了实现更好的作物产量预测,利用最新的图形信号处理(GSP)工具来利用相邻县之间的空间相关性,我们通过图形光谱滤波来证明相关的特征,这些特征是深度学习预测模型的输入。具体而言,我们首先构建一个具有边缘权重的组合图,该图可以通过公制学习编码土壤和位置特征的县对县的相似性。然后,我们通过最大的后验(MAP)配方使用图形laplacian正常化程序(GLR)来定性特征。我们关注的挑战是估算关键的权重参数$ \ mu $,交易忠诚度和GLR,这是噪声差异的函数,以无监督的方式。我们首先使用发现局部恒定区域的图集集合检测(GCD)过程直接从噪声浪费的图形信号估算噪声方差。然后,我们通过通过偏置变化分析来计算最佳$ \ mu $最大程度地减少近似平方误差函数。收集到的USDA数据的实验结果表明,使用DeNo的特征作为输入,可以明显改善作物产量预测模型的性能。
translated by 谷歌翻译
本文介绍了Okapi,用于自然语言的新数据集到可执行的Web应用程序编程接口(NL2API)。此数据集是英文,包含22,508个问题和9,019个独特的API呼叫,涵盖三个域。我们为NL2API定义了新的组成泛化任务,该任务探讨了在推理阶段中的培训中从简单API调用外推开的模型能力。此外,该模型必须生成正确执行的API调用,而不是与现有方法进行正确执行,该方法评估具有占位符值的查询。我们的数据集与大多数现有的组合语义解析数据集不同,因为它是一个非合成数据集,研究了低资源设置中的组成概括。 Okapi是创建现实数据集和基准的一步,用于研究与现有数据集和任务一起学习组成泛化。我们报告了在各种扫描和okapi数据集任务上培训的序列到序列基线模型的泛化能力。当从简单API调用概括到更复杂的API调用时,最佳模型可实现15 \%精确匹配的准确性。这突出了未来研究的一些挑战。 okapi数据集和任务在https://aka.ms/nl2api/data上公开使用。
translated by 谷歌翻译
最近的自然语言理解进展(NLU)已经被驱动,部分是由胶水,超级格,小队等的基准。事实上,许多NLU模型现在在许多任务中匹配或超过“人类水平”性能这些基准。然而,大多数这些基准测试都提供模型访问相对大量的标记数据进行培训。因此,该模型提供了比人类所需的更多数据,以实现强大的性能。这有动机侧重于侧重于改善NLU模型的少量学习性能。然而,缺乏少量射门的标准化评估基准,导致不同纸张中的不同实验设置。为了帮助加速这一工作的工作,我们介绍了线索(受限制的语言理解评估标准),这是评估NLU模型的几次拍摄学习功能的基准。我们证明,虽然最近的模型在获得大量标记数据时达到人类性能,但对于大多数任务,少量拍摄设置中的性能存在巨大差距。我们还展示了几个拍摄设置中替代模型家族和适应技术之间的差异。最后,我们讨论了在设计实验设置时讨论了评估真实少量学习绩效的实验设置,并提出了统一的标准化方法,以获得少量学习评估。我们的目标是鼓励对NLU模型的研究,可以概括为具有少数示例的新任务。线索的代码和数据可以在https://github.com/microsoft/clues提供。
translated by 谷歌翻译